Large language model scoring of medical student reflection essays: Accuracy and reproducibility of prompt-model variations
Cette étude démontre que le scoring automatisé de rédactions par des modèles de langage large (LLM) atteint une précision et une reproductibilité quasi parfaites, les modèles affinés et les prompts incluant des exemples offrant la meilleure exactitude au prix d'un coût plus élevé, tandis que les modèles non affinés comme GPT-4.1-mini constituent une alternative efficace et économique pour des volumes plus faibles.